spss分层聚类的操作方法和分析方法

2015年02月05日

聚类是一个将case分类的数据，它不是一个严格的统计方法，所以是一个很有争议的方法。但是因为没有可以替代他的方法，所以现在大家也都在用。
方法/步骤

依次点击：analyse–classify–hierarchical cluster，打开分层聚类对话框

在聚类分析对话框中，
将聚类用到的变量都放到variables中

将地区变量放入case标签中，他的意思是每一个数据都用地区这个值来命名

点击plot按钮，打开对话框，设置要输出的图

在打开的对话框中，勾选dendrogram，然后点击continue按钮。这个dendrogram是层次聚类谱系图，最后我们还会分析这个图

点击method按钮，设置聚类的方法

如图所示，通常我们用到的聚类方法是wards method，接着我们需要把变量转换成z分数，点击continue按钮

点击save按钮，填写希望保存的聚类类别数范围3–8，据此选项，spss将在数据编辑窗口中添加7个变量，分别标明聚类数位3–8类情况下各省市所属的类

设置输出的聚类类别数范围3–8，点击continue按钮

点击ok按钮，开始输出数据处理的结果

你看到的下面的这个表格叫做聚类过程表，其内容并不是经常被关注，因为大部分实际应用中，聚类的具体过程是被忽略的。但是聚类系数可以帮助我们判断将数据分为几类最合适，判断的方法是，相邻的两个数据变化的幅度显著大于前面的系数的变化范围，这时候分类在这里就是最好的

最后是层次聚类谱系图，从这个图中可看到聚类的过程，根据你的需求选择分类的组数

转载请注明来自DataScience.

邮箱: 675495787@qq.com

#spss

Excel2013：[25]如何输入分数

2015年02月01日

在Excel单元格里输入分数会自动转换成日期，我们可以在前面输入0+空格来解决这个问题，如果你不理解就看下面的具体过程：

我们先输入一个分数看看效果，按下回车键

自动的转换成了日期1月2日

我们接着用正确的方法试一遍，先输入0和一个空格

在输入分数1/2，按下回车键

这时候你看到的才是一个分数，在公示栏显示的值为0.5，大功告成

转载请注明来自DataScience.

邮箱: 675495787@qq.com

#excel

pandas教程：[13]agg分组多种计算

2015年02月01日

有时候aggregate不能满足需求，因为我们要对分组数据进行多种计算，比如要同时计算各组数据的平均数、标准差、总数等等，这时候用agg()就比较好了。

先引入必要的变量，并且创建一个DataFrame
我们可以看一下DataFrame包含哪些数据

按照颜色将数据分组：

计算各组数据的总数、平均数、标准差
计算结果为：

假如我们只需要对a列数据进行计算，可以选择a列：
计算结果为：

假如我们需要定制显示的标题，也可以如此设置：
输出结果为：

另外，我们还可以通过lambda匿名函数来进行特殊的计算：
计算各组数据的绝对值的平均数（离均差）：

我们还可以使用字符串作为一个function，要正确使用字符串，必须先学习groupby对象有哪些可用的方法。这种方式可以实现一些更高级的功能，比如定制计算方法，不建议新手使用。
计算结果为：

转载请注明来自DataScience.

邮箱: 675495787@qq.com

#pandas

Excel2013：[46]如何绘制半圆饼图

2015年01月23日

很多时候需要美化你的图表这样才能让人感觉你是一个有创意的员工，是一个对工作有激情的员工。额。。好吧，其实这句话我也不信，但信不信由你，我现在开始讲如何绘制一个半圆的饼图。

先来看一下我的数据，下面要对这些数据绘制半圆饼图；先选中这些数据

在插入一个饼图

这里是自动生成的一个饼图

点击两次半圆的【总计】部分，选中它，然后右键单击它，选择填充【白色】

好了，半圆饼图的雏形已经有了，我们接着要删除【总计】这个标签了。

右键单击饼图，然后我们在这里可以看到有一个【设置图表区域格式】

如何旋转饼图：来到这里，设置系列选项，我们设置第一扇区起始角度为270

看一下这一步我们的效果喽

如果你给它添加上标签会更好看

接着可以再设置一下数据标签格式，也是在右键菜单中

在打开的选项中，我们设置为【值】而不是【百分比】，因为百分比是错误的百分比呀！

最终的效果就是它了。

转载请注明来自DataScience.

邮箱: 675495787@qq.com

#excel

Django教程：[2]创建一个站点

2015年01月19日

上一篇文章我们安装了django，并测试成功；今天我们就要使用django创建一个站点，创建完成以后你就发现，一个最简单的网站已经制作完毕，我们接下来的任务就是在这个站点的基础上进行开发。下面是创建站点（工程）的具体方法：

按下快捷键win+r，打开运行窗口，输入cmd，按下回车键，打开命令窗口

我们将当前目录定位到你想要存放网站的目录，比如我想要放到D盘下的website文件夹中，我们输入命令：cd /d d:\website

在该目录下，我们输入命令来创建站点：django-admin.py startproject djangoweb；其中最后一个参数djangoweb就是我给我的站点起的名字，该命令将在当前目录下创建一个文件夹，该文件夹命名为django；我的命令出现了错误，因为我之前已经创建好了一个站点

我们可以看到这个文件夹已经创建了，我们打开文件夹看看有什么内容

有一个py文件和一个文件夹，继续打开文件夹

在这个文件夹内有四个文件，如图所示。这么简单的几个文件实际上已经构成了一个站点，下一篇文章我们介绍如何启动服务器，让你在浏览器看到自己的站点。

下面的参考资料可能会对你学习django有用

转载请注明来自DataScience.

邮箱: 675495787@qq.com

#django

Python教程：[66]sorted()排序详解

2015年01月19日

使用python对列表（list）进行排序，说简单也简单，说复杂也复杂，我一开始学的时候也搞不懂在说什么，只能搜索一些英文文章看看讲解，现在积累了一些经验，写在这里跟大家分享，我们通过例子来详细解释一下函数sorted的具体用法：

先创建一个列表a

直接使用sorted方法，返回一个列表b，b就是排序好了的

假如a是一个由元组构成的列表，这时候就麻烦了。

我们需要用到参数key，也就是关键词，看下面这句命令，lambda是一个隐函数，是固定写法，不要写成别的单词；a_tuple表示列表中的一个元素，在这里，表示一个元组，a_tuple只是临时起的一个名字，你可以使用任意的名字；a_tuple[0]表示元组里的第一个元素，当然第二个元素就是a_tuple[1]；所以这句命令的意思就是按照列表中元组里的第一个元素进行排序。

按照元组里的第二个元素排序

除了key参数可以实现这个功能外，还可以使用cmp参数，注意看，这里不同之处是使用了x和y两个元组，他俩都是临时起的名字，你可以任意更改，我们用x表示列表里第一个元素，y表示列表里第二个元素，x[1]表示第一个元组的第二个元素，同理y[1]也是，而cmp()就是比较函数，也就是说，比较x[1]和y[1]的大小。

我们还可以使用reverse参数实现倒序排列

如果你现在还不能理解，先记住他们的固定写法，写多了自然就懂了。
下一篇文章讲更加深入的一个排序方法，在写法上更见简单，请看传送门：http://jingyan.baidu.com/article/f3ad7d0ffe8e1409c2345b48.html

转载请注明来自DataScience.

邮箱: 675495787@qq.com

#python

SPSS实例：[13]检验调节变量的调节方向

2015年01月19日

上一篇文章中我们讲了【SPSS实例：[11]如何检验调节作用】，这篇文章呢，我们要深入分析调节变量到底是如何调节自变量对因变量的作用的。我们先来看一下上一篇文章中得到的结果：在模型3中，我们可以看到红色方框中，交互项的系数是显著的，而其他系数是不显著的。

我们根据上图中的模型3，可以得到一个回归方程：Y=1.12-0.008AB；其中Y是因变量，A是自变量，B是调节变量。
因为我们在做调节效应的验证之前，首先做了数据的中心化，如果你没有做中心化，你可以看这篇文章【数据中心化的手工操作】先将数据中心化然后，再进行层次回归，最后才能对调节变量的调节方向进行探索。
我们使用描述性统计计算出调节变量B的标准差

然后设B的值分别为一个正标准差或一个负标准差，得到两个方程：

然后取B两个真实的值，从你的数据库里面挑两个，然后带入方程，求得Y值，你就可以在Excel里绘制出散点图。

从上面的散点图中我们就可以看到，调节变量取不同的值得时候，自变量和因变量之间的斜率是不同的。这样你就可以看到，再什么情况下斜率比较大，也就是红色的那条线。

转载请注明来自DataScience.

邮箱: 675495787@qq.com

#spss

pandas教程：[15]移动复制删除列

2015年01月19日

pandas的DataFrame非常灵活，我们可以快速的移动、复制、删除列，今天就用案例来说明一下具体的工作是如何完成的。

首先我们创建一个dataframe
打印一下：

增加列，我们可以把df当作一个object，给它增加一个属性c，如下：
这是增加c列以后的数据：

我们还可以插入一列数据到任意位置：比如插入到第二列
插入后的数据：

永久删除一列数据用del，虽然我们不建议你这么武断的删除c列：
删除后的数据：

更明智的方法是使用drop，它不改变原有的df中的数据，而是返回另一个dataframe来存放删除后的数据
这是df2中的数据：

移动列也很简单，假如我们想要将c列移动到第一列，我们可以使用pop来输出并删除b列，然后再将b列插入到第一列，这样就完成了移动
移动后的结果为：

转载请注明来自DataScience.

邮箱: 675495787@qq.com

#pandas

Python教程：[64]判断文件文件夹

2015年01月17日

如何判断某个路径是不是存在、是不是文件夹、是不是文件？我们今天就来介绍一下判断文件、文件夹，同样也是用到了os.path模块，下面看看具体的例子：

装载一下os模块，然后我们写一个路径，这个路径是真是存在的

判断一下这个目录是不是文件夹，用isdir

判断该路径是不是指向一个文件，用isfile

判断一下该路径是不是绝对路径：用isabs

判断一下，该路径是否存在：用exists

总结一下，os.path模块下的五个判断函数：

转载请注明来自DataScience.

邮箱: 675495787@qq.com

#python

spss简单因素分析的操作和结果分析方法

2015年01月15日

因素分析是spss中一个重要的功能，他的作用是从多个变量中提取少数几个因子，达到减少指标的目的；有时候因素分析方法用在问卷编制中，可以从各个题项中提取中几个维度。下图看到就是我们要分析的数据，这里有x1–x8这8个变量需要进行因素分析。
工具/原料

sps20.0
方法/步骤
在菜单栏上执行：analyse–dimension reduction–factor ，打开了因素分析对话框

打开了因素分析对话框，将要分析的这8个变量放到variables框中，点击箭头按钮可以添加变量

还是自因素分析的主对话框，点击descriptive按钮，打开描述统计的子对话框

在子对话框中，我们需要对因素分析是否合适进行检验，所以勾选如图所示的选项，点击continue返回到主对话框

还是在主对话框中，点击extration按钮，打开子对话框

在这个子对话框中，我们可以输出碎石图，这样可以更加直观的看到各个因素的特征根，对于碎石图的解释后面会有。点击continue，返回主对话框

在主对话框中，点击ok按钮，开始处理数据并输出结果

我们看到的第一个图就是KMO检验，如图所示，kmo值为0.6，这个值不是很理想，一般来说kmo大于0.7可以认为数据具有较好的相关性，因素分析的效果会好一些；当kmo值在0.5以下的时候，不适合做因素分析。接着我们看Bartlett检验，我们看sig值显著，说明应该拒绝变量相互独立的假设，这说明因素分析是合适的。

接着我们看碎石图，这个图的横轴是因素的序号，纵轴代表特征根，曲线的意思是，随着因素序号的增大，特征根迅速降低。后五个因素的特征根变化非常小，所以我们基本上认为得到三个因子是比较合适的。

最后看到的是因子载荷矩阵，从因子载荷矩阵中，我们可以知道各个因子在不同变量中的载荷，同时可以根据表格中的数据求出因子的计算公式我们举一个例子里计算第一个变量：ZX1=0884F1+0.385F2+0.12F3

转载请注明来自DataScience.

邮箱: 675495787@qq.com

#spss